《语言战略研究》| 李宇明:中国语言资源的理念与实践
《语言战略研究》2019年第3期封面
中国语言资源的理念与实践
李宇明
提 要 语言资源概念的提出有40多年的时间。20世纪80年代,澳大利亚曾依照语言资源理念制定了《国家语言政策》。中国在21世纪初开始在语言规划中实践语言资源理念,建立了国家语言资源监测与研究中心,相继开展了中国语言资源有声数据库建设和中国语言资源保护工程,并与联合国教科文组织联合召开了“世界语言资源保护大会”,发布了《岳麓宣言》,成为世界上提倡语言资源理念、开展语言保护最为突出的国家。中国语言资源研究在语言规划的实践推动下展开,且与语言规划实践形成良性互动。语言资源研究从论证语言的资源性质到划分语言资源的类型,再发展到对语言资源功能的认识。本文较为详细地论述了语言资源的认识史、中国有关语言资源的实践和研究,并尝试把语言资源分为口头语言资源、书面语言资源和语言衍生资源(语言知识、语言技术、语言艺术、语言人才等)三类,分析了语言保护、语言信息处理和语言学习等语言资源的三大功能域,还提出了“语言知识观”,即语言不仅是一个符号系统,更是一个贮存人类语言知识体系及文化体系的知识库。依照“语言知识观”建设语言资源,才能满足语言保护和机器语言学习、人类语言学习的资源需要。
关键词 语言规划;语言资源;类型;功能;语言知识观
中国有100多种语言,汉语的方言灿若星空,汉语文献有数千年积累,汗牛充栋,是世界上语言资源十分丰富的国度。同时,语言信息处理的重要基础是语言数据库,中国的语言信息处理事业发展一直在努力追赶世界先进水平,有些技术及应用已经处在世界第一方阵,这也促使中国学人能够从信息化的时代高度来认识语言资源。中国在历史上也比较重视对语言资源的保护和开发利用,如汉灵帝熹平年间的“熹平石经”、三国时魏齐王正始年间的“三体石经”,是通过勒石立碑来保护、展示经书和文字的范本,历代的韵书、字典就更是直接的语言资源保护产品。中国传统重视书面语,对于经典和文字的敬重保护做得十分到位;但对于口语相对轻视,历代口语资源的记录保护工作做得不好,虽然也有汉代扬雄的《方言》,历代的方志中也多有词语俗谚的内容。中国历史上的语言资源意识及其保护利用等,有许多经验值得总结和继承。
但是,真正理性地认识到语言的资源意义,特别是把语言资源作为国家语言规划的重要理念,并在国家层面、在全国范围采取语言资源保护行动,还是近十几年来的事情。语言作为社会资源,也是近些年来才得到社会的认可和重视的。
一、语言是资源
认识语言的资源性质,十分不易,语言必然不如煤炭、石油、电力、水力那样直接作用于人类的物质生活。这也是符合人类的资源认识规律的。
(一)资源的认知路径:由自然资源到社会资源
资源是人类生产、生活所凭借的资料。某种资料能否成为社会认可的资源,取决于两个条件:
第一,资源的“有用性”。
科学技术的发展可以将过去不能使用的资料用于生产和生活,将不能这样或那样使用的资料这样地或那样地用于生产和生活。比如,电和石油,古来存在,但是人类的科学技术发展到可以把电、石油作为能源的时代,电和石油才成为人类的资源。如此说来,资源与科技进步密切相关。我们既要全面认识、充分利用现代科技状态下的“可用资源”,也要对那些随着科技发展将来能用的“潜在资源”保持关注,特别是要对前沿科技所可能产生的资源效益密切关注,从而使资源建设具有预见性。
第二,资源“有用性”的被认识。
有些资料本来是生产生活所凭借的、不可或缺的,但是由于某种原因,人们没有认识到它的资源性质,或者忽视了它的资源性质。例如当雾霾不严重时,人们认识不到清新空气的资源性质;当污染不严重时,人们认识不到清洁水的资源性质。如此说来,资源有“被认识资源”和“未被认识资源”。我们要特别关注那些“未被认识资源”,包括已在我们的生产生活中使用的“可用资源”,也包括将来可能会进入我们生产生活的“潜在资源”。
资源的“有用性”能否被认识,可从四方面来看:第一,社会有无科学的资源观,作为一门学科的资源科学是否发达;第二,对某种资源与人类关系的研究达到何种水平;第三,对科技的敏感性;第四,稀缺性。最易被社会感知到的资源是稀缺资源,有用而稀缺的资源,必然会具有昂贵的价格,因此,“稀缺性”也几乎成为资源的一种附加属性。
资源有自然资源和社会资源两大类。在人类的资源意识中,首先被认识的是自然资源,然后是社会资源。《现代汉语词典》是反映“公民常识”的词典,从第1版到第6版,对“资源”词条的解释,一直强调是生产资料和生活资料的“天然来源”,所举的例子共涉及“地下资源”“水力资源”“人力资源”“旅游资源”等4种。2016年第7版对“资源”的解释有了较大发展:
【资源】名 生产资料或生活资料的来源,包括自然资源和社会资源:地下~|水力~|旅游~|人力~|信息~。(第1732页)
第7版的释义,不再强调资源的“天然性”,明确把资源分为自然资源和社会资源,举例中增加了“信息资源”,这些都是信息时代新资源意识的反映。
《辞海》是一部带有百科性质的工具书,第1版到第4版都把“资源”解释为“资财的来源。一般指天然的财源”,显然其对“资源”的认识比同时的《现代汉语词典》还狭窄。到1999年第5版,《辞海》为“资源”增加了一个新义项:
一国或一定地区内拥有的物力、财力、人力等物质要素的总称。分为自然资源和社会资源两大类。前者如阳光、空气、水、土地、森林、草原、动物、矿藏等;后者包括人力资源、信息资源以及劳动创造的物质财富。(第3881页)
这个认识应该说已比较到位,不仅不再强调资源的“天然性”,不仅把资源分为自然资源和社会资源,而且认为社会资源包括“劳动创造的物质财富”。当然,如果更进一步看,社会资源不仅包括“劳动创造的物质财富”,也许还应包括“劳动创造的精神财富”。
(二)语言资源意识的建立
回看《现代汉语词典》和《辞海》关于资源的定义,会发现它们在举例中都没有提及“语言资源”。这不大可能是因为举例的缘故而没有列出语言资源,而更可能是当时的社会和辞书编纂者还没有认识到语言的资源性质。
人类对语言资源的认识也的确是比较晚近的事情。国外语言规划学界也有提及语言资源问题的,但其研究并不系统。费什曼(1973)开始提及“语言资源”:“语言跟农业、工业、劳力、水电等资源不同……显然只是从其具有价值的意义上讲,语言才是一种资源。……无论怎么说,语言都是一种特殊资源,很难用现有的成本-效益理论来管理。原因是我们很难对语言进行度量,也很难把它同其他资源分割开来。然而,我们仍有足够的理由探讨语言与其他资源以及资源规划之间的异同。(见周庆生,2001:422~423)
王辉(2007)指出,Ruiz于1984年曾提出影响语言规划的3种取向:语言作为问题、语言作为权利、语言作为资源。语言资源取向可以缓解前两种取向带来的语言冲突,有助于重新树立人们对语言和语言群体的态度。语言是一种需要管理、发展和保护的资源,双语和多语能力是语言资源,少数族群的语言是一种专门的重要资源。Kaplan(1997)、Grin(2003)把语言看作重要的“人力资源”,看作重要的“人力资本”,语言规划应是国家规划的一个方面。
在国家语言规划实践上,澳大利亚在20世纪70年代至80年代末,提倡文化多元政策,在《Grassby报告》(Grassby Report,1973)、《Galbally报告》(Galbally Report,1978)、《迈向国家语言政策报告》(Towards a National Language Policy,1982)、《一项国家语言政策》(A National Language Policy,1984)等“四报告”基础上,1987年出台了《国家语言政策》(National Policy on Languages)。《国家语言政策》提出了指导澳大利亚语言政策的4条战略:第一,保护澳大利亚的语言资源;第二,开发、扩展这些语言资源;第三,将澳大利亚语言教学与语言使用的举措同国家经济、社会与文化政策结合起来;第四,用客户能理解的语言提供信息和服务。这是将语言资源理念变为国家语言政策的不多案例。不过令人遗憾的是,进入20世纪90年代,随着《绿皮书》(1990)、《白皮书》(1991)的出台,澳大利亚的语言政策衍变为英语读写能力优先,这相对削弱了语言资源在语言政策中的比重。
中国最早使用“语言资源”概念是在20世纪80年代。邱质朴(1981)从信息化、语言教学、语言规划等角度讨论语言资源的开发问题,尤为关注“语言工程”和汉语国际传播这两个领域的语言资源开发问题。《语文建设》1988年发表了楼必安可(Lo Bianco)的《澳大利亚的国家语言政策》。楼必安可是澳大利亚著名的语言规划学家,是澳大利亚《国家语言政策》(1987)的撰稿人。《语文建设》发表的楼必安可(1988:55~57)的这篇文章,是《国家语言政策》(1987)的摘要,虽然是摘要,但对于澳大利亚语言资源理念及相关措施的介绍已经较为详细,如:“但仍有许多人的母语却是英语以外的其他语言。这是很宝贵的语言资源,充分利用这些语言资源有很重要的意义。”“国家语言政策的主要目标就是使澳大利亚因能善加利用丰富的语言资源而获最大利益。”“总而言之,只有细致周密的计划才能收到利用澳大利亚语言资源的最大效果。”“语言资源的计划需要各级政府……的合作和协调。”
20世纪90年代,邱质朴、楼必安可的语言资源概念似乎并没有在语言学界产生反响,只有陶原珂(1996)提出要注意开发利用澳门社会的语言资源,邱质朴(2000)再次申明他1981年的观点,张政飚(2000)例举西部方言在语言研究中的价值。不过据王世凯(2009:25~28)研究,中国文学界倒是在讨论如何发掘、利用语言资源(旧白话、方言、民间语言等)搞好创作的问题,讨论西方语言资源与中国文学创作的关系。在中国,语言与文学虽然同在一个“语言文学”学科里,有“中国语言文学”和“外国语言文学”两个一级学科,但是语言与文学之间却很少发生学术互动,仿佛是“鸡犬之声相闻,老死不相往来”。在语言资源等问题上,直到今天,语言、文学两家也没有对话。
进入21世纪,语言资源的讨论逐渐增多,语言资源意识开始在中国建立。2004年前后,张普教授常与李宇明、王铁琨等教育部语言文字信息管理司的同人讨论语言资源问题。大家认识到:语言是资源;语言资源是信息社会最重要的资源,是与矿产资源、土地资源、海洋资源、水资源、森林资源一样的国家资源,国家应当对语言资源立法管理,进行监测、保护和开发利用。这些讨论的学术成果反映在张普的重要论文《论国家语言资源》(2007),其实践成果就是国家语委组建“国家语言资源监测与研究中心”。国家语言资源监测与研究中心2004年6月正式挂牌,并逐渐建立了平面媒体(北京语言大学)、有声媒体(中国传媒大学)、网络媒体(华中师范大学)、民族语言(中央民族大学)、教育教材(厦门大学)、海外华语(暨南大学)等6个分中心和中国语言资源开发应用中心(商务印书馆)。
2005年7月,教育部、国家语委在乌鲁木齐市召开“民族语言文字规范标准建设及信息化工作会议”,时任国家语委主任袁贵仁做了《树立科学发展观,开创民族语言文字规范标准建设及信息化工作的新局面》的书面讲话,提出要“保护文化多样性,开发民族语言资源”,认为“语言资源是重要的信息资源和文化资源”。国家语言资源监测与研究中心的建立,国家语委主任袁贵仁的这一讲话,标志着中国的语言资源意识逐渐明晰,语言资源理念在国家语言规划中得到确立。
二、中国有关语言资源的实践活动
中国的语言资源理念及其学术发展,是由语言规划的实践带动的。了解21世纪中国有关语言资源的实践活动,可以从一个侧面更好地了解中国的语言规划,也可以更好地了解中国的语言资源研究。
(一)国家语言资源监测与研究中心
国家语言资源监测与研究中心的工作,是通过它的分中心完成的。各分中心依照共同的理念和技术规范,采录、经营着“平面媒体、有声媒体、网络媒体、民族语言、教育教材、海外华语”的语料库。采录、维护这些语料库就是对语言资源的保存。中心还通过语料库发现语言使用特点、新的语言现象和一些重要的“实态”统计数据,比如每年的汉字使用频率、词汇使用频率、新词语、流行语、网络语言状况等,许多数据常通过教育部新闻发布会和“汉语盘点”活动向社会发布,并成为每年的《中国语言生活状况报告》(绿皮书)的重要篇章。这些数据对于《通用规范汉字表》的研制、中小学语文课标和汉语国际教育有关标准的制定、语文教材的编写等,都发挥了一定作用。
2007年9月,语信司与北京语言大学共同主办了“国家语言资源与应用语言学”的高峰论坛,这也是国家语言资源监测与研究中心的几个分中心共同邀请国内外学者参加的学术会议。这是国内首次召开的语言资源的大型学术会议,讨论议题除“国家语言资源建设、监测与研究”之外,还有国家语言资源与语言服务、语言规划、语言文字规范、语言文字社会应用、母语教学、国际汉语传播、民族地区汉语教学、语言信息处理的关系,研究范围比较广泛。会议收到论文50篇,择28篇结集为《中国语言资源论丛》,由商务印书馆出版。这也是中国第一部讨论语言资源问题的论文集,至今仍发挥着学术影响。
(二)中国语言资源有声数据库
2006年前后,不少学者认为,要保护国家语言资源,就需要了解语言资源的国情,语言普查是了解语言资源国情的最好举措。1956年,根据国务院指示进行了汉语和少数民族语言调查。1999年,教育部等11部委联合开展了中国语言文字使用情况调查。这两次调查对于了解语言国情起了较大作用,但都没有达到“语言普查”的水平,特别是没有采录语料,不能了解语言及方言的话语情况。这一时期,还有学者专门了解国际上某些国家语言普查的情况,着手设计我国语言普查的方案。
后与有关部门协商,被告知在全国进行语言普查的时机尚不成熟,于是国家语委另辟蹊径,组织课题组研究“中国语言资源有声数据库”的建设问题。名为“有声数据库”,就是要强调口语与音频,强调数据库技术;嵌入“语言资源”四字,是要彰显、传播语言资源理念;将语言普查的一些内容体现在调查项目中。
参加研究的专家主要有曹志耘、戴庆厦、郭龙生、何瑞、黄行、李如龙、刘丹青、潘悟云、乔全生、魏晖、谢俊英、徐大明、张振兴等先生。中国语言资源有声数据库建设领导小组办公室,根据这些研究成果编写了《中国语言资源有声数据库调查手册》的汉语方言部分,曹志耘执笔,顾黔、侯精一、刘俐李、孙茂松、汪平、杨尔弘、赵晓群先生等也参与了讨论。这些研究成果反映在手册中,也反映在李宇明的《论中国语言资源有声数据库的建设》(2010)论文中。
根据《中国语言资源有声数据库调查手册》规定的管理规范和技术要求,2008年国家语委正式启动中国语言资源有声数据库建设。先试点,后铺开,江苏承担了有声数据库建设的试点工作,历时年余。2009年江苏正式启动有声数据库建设,之后上海、北京、辽宁、广西、山东、河北、福建、湖北等地,也陆续开展调研、建库工作。中国语言资源有声数据库建设,在学界和社会上普及了语言资源理念,培养了一支骨干队伍,形成了一套管理规程和技术标准,积累了一批语言资源数据。
(三)中国语言资源保护工程
在中国语言资源有声数据库建设的基础上,2015年,教育部、国家语委印发了《关于启动中国语言资源保护工程的通知》,开启了中国乃至世界最宏大的语言保护工程(以下简称语保工程)。到2018年底,语保工程在全国34个省域全面展开,参与高校和科研院所超过350所,参与专业人员达4500余名,进行了1495个调查点的调查,所获数据包括所有汉语方言和120多个语种。
语保工程在《中国语言资源有声数据库调查手册》汉语方言部分的基础上,制定了《中国语言资源调查手册·汉语方言》,同时又制定了《中国语言资源调查手册·民族语言》(按语族分册,共计8册)、《中国方言文化典藏调查手册》等,设计了“语保摄录机”“语保标注软件”等语言调查加工软件,陆续推出“中国语言文化典藏(20册)、“中国濒危语言志”(30册,将于2019年底全部出版)等标志性成果。
2018年9月,中国政府与联合国教科文组织在长沙联合召开首届“世界语言资源保护大会”。会上,联合国教科文组织及各国政府、相关学术机构代表和与会专家学者讨论并通过了《保护和促进世界语言多样性 岳麓宣言(草案)》。会后,联合国教科文组织按照程序广泛征求意见并形成宣言最终文本,于2019年1月18日通过其官网正式公布。2019年2月21日,中国教育部、联合国教科文组织驻华代表处、中国联合国教科文组织全国委员会、中国国家语委在中国共同举行发布会,正式发布《岳麓宣言》。首届“世界语言资源保护大会”能够在长沙召开,是因为中国语保工作得到了国际社会的认可;《岳麓宣言》能够制定,是得到了中国语言资源有声数据库和中国语保工程的理念及经验的支撑。
(四)中文语言资源联盟
大规模的语言资源是计算机进行语言信息处理的基础。根据徐波、孙茂松、靳光瑾(2003:218~224)的介绍,2003年,在“973计划”的特别专项“中文语料库建设”支持下,中国科学院自动化所、清华大学、北京大学、中国科学院计算所、山西大学、上海交通大学、教育部语言文字应用研究所等单位,共同承担了“中文语言资源联盟(Chinese Linguistic Data Consortium,缩写为CLDC)的首批资源建设。之后,中国中文信息学会专门成立“语言资源建设和管理工作委员会”,负责CLDC 的资源建设及数据库的运行。
中文语言资源联盟的建立,是借鉴美国“语言资源联盟”(Linguistic Data Consortium,缩写为LDC)的经验,目的是共建共享中文资源、促进语言信息处理的技术进步。提供资源者计有36家。中文语言资源联盟的成立与发展,是面向语言信息处理的语言资源汇聚实践,是语言资源共建共享模式在中国的实践,反映着语言信息化的科学需求。
(五)语言资源高精尖创新中心
2015年10月,“北京高等学校高精尖创新中心建设计划”正式启动。2016年5月,北京语言大学语言资源高精尖创新中心成立。这是中国第一家以世界语言资源的收集整理、开发利用为目的的研究机构,其主要学术目标是:让全世界的语言(7000余种)都在中国有一份保有本,帮助机器理解人类语言。
语言资源高精尖创新中心重点收集A、B两类语言资源:A类是面向语言库藏和展示的语言资源,主要是自然语言资源;B类是面向语言智能的语言资源,包括各种生语料、经过加工标注的熟语料、语言知识、社会常识等。就A类语言资源来说,目前语言资源高精尖创新中心正在实施“第三圈”战略,即在中国语言资源有声数据库和语保工程的基础上,在中国基本完成了方言圈(第一圈)、民族语言圈(第二圈)语料采集的情况下,集中精力采集中国跨境语言和边境语言(第三圈)语料。并期望在不久的将来,完成“一带一路”60余国的200余种主要语言的采集。
除了以上介绍的5项重大语言资源实践活动之外,中国还有许多语言资源库的建设项目。例如20世纪末侯精一先生主持的《现代汉语方言音库》,收录了40种现代汉语方言音档,由上海教育出版社于1995~1999年出版。钱乃荣(1995)评价说:“现代汉语方言音库的建立结束了我国汉语方言的出版物仅停留于书面描写各地方言现象的历史。”再如内蒙古也建有蒙古语和鄂温克语、鄂伦春语、达斡尔语的语言资源库。例子难以一一枚举,可以说时至今日,中国已经成为世界上推进语言资源建设的最重要的国度。
三、中国有关语言资源的学术研究
关于语言资源的学术研究,前面已有多处涉及。下面就几个问题做些专门讨论。
(一)语言规划实践与语言资源研究
知网是一个很好的科技文献数据库,利用知网做文献分析是当前可选的一条路径,尽管知网的文献检索也可能有缺陷,比如有些文献未必被收录,有些文献因关键词标注也未必适合检索。在知网中用“语言资源”作为主题和关键词精确匹配检索,截至2019年3月31日,检索到文献403篇,涉及作者370余人。从图1看,1981年最早有文献出现,到2003年论文年发表量还在5篇以下,22年来总共发表论文只有17篇,这是学人较少涉足之地。2004年出现一个研究的小高峰,年发表论文达到7篇。2007年研究热度明显升高,年发表论文达到16篇;这一趋势持续到2011年,年发表论文达到26篇;2007~2011年形成第二个高峰区;2015~2017年出现第三个高峰区,峰巅在2016年,年发表论文达到55篇。
这种情况表明:第一,20世纪,“语言资源”领域几乎还是一片处女地,它是21世纪才开始开发的学术领域。第二,语言资源研究与语言规划实践密切相关。2004年的小高峰,对应于国家语言资源监测与研究中心成立;2007年到2011年,正是“中国语言资源有声数据库”从酝酿到正式建设的时期;2015年到2017年,是语保工程开始建设的时期,也是语言资源高精尖创新中心的创立时期。研究高峰与实践活动的关节点大致对应,是因为实践活动开始前总要做些研究,开始后又能带动研究。在中国,的确是语言规划的实践在推动语言资源的研究,为研究提供需求、材料和用场;语言资源研究也为实践提供了学术支撑;学术与实践相互推动,是因为在政界、社会、学界之间建造有一个现代化的“智力旋转门”。可以预测,2019年也会是语言资源研究的大年,因为2018年在长沙召开了首届“世界语言资源保护大会”,2019年春季正式发布了《岳麓宣言》。
(二)语言的资源性质与语言资源类型
我国早期的语言资源研究,主要是论证语言具有资源的性质,确立语言资源的合理性。张普(2007)《论国家语言资源》用较大的篇幅论证语言是资源。先从资源说到资源科学,再谈自然资源和社会资源,绕这么大的弯子就是为了说明语言也是资源,是社会资源。可见当时要说“语言是资源”这么个道理还是多么困难。陈章太(2008)《论语言资源》也用了不少笔墨,来说明“语言是一种特殊的社会资源”。
在论证语言具有资源的性质之后,研究者的精力便集中在列举语言资源、为语言资源分类上。陈章太(2008)从广狭两个方面来看待语言资源:狭义的语言资源是指“语言信息处理用的各种语料库和语言数据库,以及各种语言词典等”;广义的语言资源是指“语言本体及其社会、文化等价值”。而他要讨论的是广义的语言资源,这可能说明两个问题:第一,“语言资源”这一概念在当时语言信息处理学界较多使用;第二,把语言资源推及语言本体,还具有较大新意。
张普(2007)把语言资源分为三类:语言资源类、言语资源类、语言学习资源类。把语言学习资源划出一类,是考虑到了语言资源的用途。从学界开始关注语言资源,如邱质朴(1981),就比较关注语言资源在教学中的应用。张普先生又是数字化教学的研究者、提倡者,语言学习资源更易进入他的研究视野。但是他把语言资源分为“语言资源类、言语资源类”表面上符合“语言、言语”的“抽象-具体”这一学界思维习惯,特别是慧眼独到地强调了语言运用所产生的语言资源,但实际上就语言数据库建设来说,不可能拿“语言”来建库,文字的或音频的材料都只能是具体的“言语”。
王世凯(2009)是中国第一部论述语言资源的专著,在提出建立“语言资源学”的同时,在着力探讨语言资源的多种性质的同时,还把语言资源看作由底层资源(语音资源、词汇资源、语法资源、语义资源、文字资源)和高层资源(修辞、语体、风格)构成的体系。这基本上是根据语言的结构要素来划分语言资源,同时考虑到文字和修辞、语体、风格等。
魏晖(2015)认为语言资源包括四大类:(1)语言本体(知识)资源,由语音、词汇、语法和语义等构成;(2)语言应用资源,包括各种通用的、专用的、静态的、动态的、多语的、平行的语料库,还包括与语料的加工处理相关的知识库、数据库、规范标准(库)等;(3)语言学习资源;(4)人力资源,即掌握不同语种(包括外语)的人才。魏晖(2016)重申这一观点,并再次强调“人力资源是最核心的语言资源,也是最具能动性的语言资源”。
很显然,在语言资源的认定和分类方面,学界意见至今并不一致,甚至还没有建立语言资源的认定标准,也没有找到一个较为合适的分类体系。本文认为,语言资源基本属性是其“有用性”,语言及其相关的事物有哪些作用,亦即哪些东西可以成为语言资源,还是一个需要探索的问题,特别是语言智能的发展一日千里,很多我们意识不到的东西都可能进入语言资源的行列。综合时贤的研究,就当前的认识水平看,语言资源可以包括3类:(1)口头语言资源;(2)书面语言资源;(3)语言衍生资源,包括语言知识、语言技术、语言艺术、语言人才等。
自然语言的存在形态主要是口语和书面语,它们是最为基本的语言资源。就资源的收集、整理、建库、保护而言,不存在语言和言语的对立,接触到的都是言语类的语言资源。“言语”是现实存在,“语言”存在于语言学中,存在于语言学家的大脑里和学术抽绎的操作中。就此而言,没有必要区分“语言资源”和“言语资源”,或者说,只有“言语资源”没有“语言资源”。
“口头语言资源”和“书面语言资源”是对自然语言资源的再分类。在许多文献中语言资源也就只指这两类资源。其实“语言衍生资源”也非常重要:其一,语言知识、语言技术、语言人才等,在语言资源的收集整理、标注入库、分析研究、开发应用等各个关节都在发挥作用;其二,语言艺术(包括书法、文学,还有主要凭借语言的艺术,如话剧、相声、小品、笑话等)本身就是很有价值的语言资源。故而,语言资源应当包括语言衍生资源。
(三)语言资源的功能视角
语言资源的社会意义在于功能。看待语言资源必须建立“功能视角”,应从功能的角度去认识语言资源,去评价语言资源的建设工作,去开发利用语言资源。语言资源的功能是随着社会的进步而逐渐被开发、被认识的。在我们的文化传统中,文字和书面语比口语更受重视。但在近来以语言保护为首要任务的语言资源研究与实践中,口语的语言资源意义得到了较多关注,而书面语的语言资源意义则反而关注较少,研究较少,至于语言知识、语言技术、语言艺术、语言人才等衍生性的语言资源,虽不同程度地被涉及,但尚缺乏认真梳理。
就当前语言资源利用的实践来看,语言资源的功能域主要有3个方面:语言保护、语言信息处理、语言学习。
1. 语言保护
语言保护是当今全球的热点话题,据专家预测,本世纪末90%的语言将濒危甚至消亡。若从交际的角度看,这些语言的濒危或消亡也许并不是严重问题;但是若从文化的角度看,语言的濒危或消亡却是文化的灾难,因为每种语言都记载着某民族(部族)的历史、经验及世界观,而这些精神财富绝大多数还没有被现代人类社会所了解,没有成为现代人类知识的一部分。语言保护就是与时间赛跑,抢救失而不可复得的人类精神资财。中国的百余种语言以及大量的汉语方言,也有许多处在濒危状态或是出现濒危态势,语言保护的任务也是急迫而沉重的。
语言保护有3个层次:第一个层次是“语言保存”。即通过书面记录方式和录音录像方式,将语言(包括方言)记录下来,并建立起数据库、博物馆,把这些“语言标本”保存下来。当前学者进行的多是语言保存层面的工作。语言保存所涉及的语言资源,主要是口语资源,特别是濒危语言的口语资源。其实古代书面文献、民间语言艺术等,也具有重要的语言保存价值。进一步研究会发现,作为“语言样本”的语言资源可以再分为两种,一种是“展示本”,一种是“全息本”。展示本主要用于语言展示、语言教学、基本研究等,要求语言资源能够反映出某语言的基本特征,比如基本的结构特征、交际运用特征和文化特征。全息本要求尽可能多地保存某语言的语言信息和文化信息,一旦有需要,可以在虚拟技术的帮助下利用这些信息“复活”该语言。这是语言保护最为浪漫的理想。
第二个层次是“语言活态保护”。即通过各种措施来延长语言的生命,维护语言的活力。由于语言活态保护必然会对语言使用者的生存、生活方式及生存、生活环境进行不同程度的干预,伦理学上的要求很高,工作的难度很大。国内外在语言活态保护方面都做了一些探索,积累了一些经验,比如北美地区对印第安语的活态保护,大洋洲对毛利语的活态保护,中国对裕固语、贵州苗语的活态保护等。但总体上看成效并不明显,前景并不清晰。
第三个层次是“语言资源的开发利用”。即对语言保存、语言活态保护的成果进一步开发,获取语言保护的社会“红利”。“红利”意识十分重要,它可激发语言保护的动力,及时发挥语言保护的效力,不断增加语言保护的实力,保证语言保护事业可持续发展。需要注意的是,语言保护“红利”的获取者,首先应考虑语言资源的提供者,包括发音合作人及其所属社团。
2. 语言信息处理
语言信息处理是当前语言资源的最大用户,也是当下语言资源理念的积极提倡者和语言资源的积极建设者。在中国,中文语言资源联盟的建立便是上述认识的最佳“背书”。语言信息处理绝不只是科学技术之事,而是推进社会进步的重要力量;正是它的发展进步,使当今社会正在向“智能时代”迈进。人工智能是智能时代最主要的技术力量,其核心是语言智能。机器获取语言智能主要靠语言大数据的训练。语言大数据也就是语言资源,从语言智能的视角看,语言资源是生产资料的范畴,对人类的意义就更加不一般了。
语言保护所涉及的语言资源,主要保存的是以往的人类世界,是人类的历史,是人类已有的经验及世界观;而语言信息处理所涉及的语言资源,是用于创造新的知识、发现新的世界的。语言保护是面向过去的,语言信息处理是面向未来的,虽然认识既有世界对发现新世界会有帮助。
用于语言信息处理的语言资源,还可以进一步划分为两种:一种是帮助解决“语言通”的,一种是帮助解决“信息通”的。语言通是让机器能够理解和使用语言,包括机器翻译、机器写作等。信息通是让机器对各领域信息能够加工处理,包括“社会计算”、科技文献的二次加工等。当然,语言通也需要机器有一定的专业知识和社会常识,亦即需要信息通的支持,信息通更需要在语言通的基础上来进行。用于语言通的语言资源和用于信息通的语言资源是有不同要求的,因此可以把用于语言信息处理的语言资源再行划分。
3. 语言学习
语言学习是人类最为重要的语言生活之一。随着社会的发展,语言学习的任务越来越重,不仅要学习母语(特别是书面语),还要学习外语,甚至是多门外语。即使语言智能发展到相当的高度,机器翻译可以满足基本的翻译需求,外语学习仍然是需要的,因为它是人类全面发展的素养。
语言学习必须依靠语言资源才能进行,语言学习资源是语言资源研究者较早进入的学术领域。传统的语言学习资源有教科书、工具书、课外读物、语言教师、必要的语言环境等。而今进入到信息化的时代,智能学习、智慧学习、慕课、微课等新概念炫人耳目,构建适合于“互联网+”的语言学习资源,成为教育改革的时代命题。语言知识、语言技术、语言人才、语言课程、语言学习环境等,是新时代语言学习资源中的重要组块。这方面的实践已经很多,但是真正的研究和应用还是比较有限的。
(四)语言知识观
语言资源的功能还有很多,但是有此三者,已经足以说明语言资源的重大价值,足以说明语言资源建设的意义及其急迫性,足以说明语言资源研究及建立语言资源学的意义。
自从索绪尔建立了现代语言学之后,“语言是一个符号系统”便成为公理性的学术常识。但是,从语言资源的视角、特别是语言资源功能的视角看“语言”,语言就不只是一个“符号系统”,而更是一个“知识系统”。比如语言保护,不应只是记录、保护语言符号,而是记录、保护人类的语言知识体系及文化体系。语言学家传统的语言调查,目的主要是揭示语言的符号系统,而在揭示语言的知识系统、文化体系方面明显不足。从“语言知识观”的立场出发,词汇、语法、语用、篇章最为重要,人类的知识和思维运作主要贮存在、表现在词汇、语法、语用和篇章之中。由此来看,语言保护工作必须在语言调查方法、语言调查内容等方面进行大幅度改进。
如果从语言信息处理的角度看语言,计算机理解人类语言,只理解语言的符号系统是完全不够的;计算机从语言大数据中学到的也不仅仅是语言的符号体系,而是语言的知识体系甚至也包括文化体系。这也许就是计算机只学习语言学家给它的“规则”并不能够实现语言通的原因。语言信息处理也可以通俗地表述为“机器语言学习”,人类语言学习也是如此,现在人们强调外语学习要从“学外语”变成“用外语学”,也包含着这个道理。
四、结 语
语言的社会资源性质,是人类从20世纪70年代才开始逐渐认识到的,澳大利亚在80年代率先把语言资源意识落实到国家语言规划中。中国的语言信息处理学界2003年开始筹建“中文语言资源联盟”,是语言资源建设最早的行动者。2004年国家语委成立“国家语言资源监测与研究中心”,语言资源理念开始进入国家的语言规划。之后,随着“中国语言资源有声数据库”和“中国语言资源保护工程”的相继开展,中国成为世界上在国家层面大力提倡语言资源理念、开展语言保护的最为突出的国家。2018年,中国与联合国教科文组织在长沙共同召开首届“世界语言资源保护大会”,并形成《岳麓宣言(草案)》,中国的语言规划又一次为国际社会提供了公共产品。
中国语言资源研究是在语言规划的实践推动下展开的,并与语言规划的实践形成了良性互动。1981年到2003年可以看作语言资源的学术酝酿期,2004年、2007~2011年、2015~2017年出现3次学术高峰或高峰区,语言资源已经发展为重要的具有魅力的学术领域,语言资源学的学科建设提上日程。
早期的研究主要确定语言的资源属性,之后较多地研究语言资源的类型。语言资源有哪些类型,学界认识还很不一致,本文尝试把语言资源分为口头语言资源、书面语言资源和语言衍生资源(语言知识、语言技术、语言艺术、语言人才等)三类,并认为要较好地解决语言资源分类问题,必须建立语言资源的功能观。当前语言资源最为重要的功能域是语言保护、语言信息处理和语言学习,应当根据这些功能来考虑语言资源的分类、建设规格和评价标准。
从语言资源的角度,特别是语言资源功能的角度来看语言,语言就不仅仅是一个符号系统,它更是一个“知识库”,里面贮存着人类的语言知识体系及文化体系。只有树立了“语言知识观”,语言资源建设才能满足语言保护和机器语言学习、人类语言学习的需要。
最后需要指出的是,语言资源的保护与集聚需要人类社会的合作,包括不同地区、不同国家、不同国际组织的合作,不同社会部门和不同学科的合作。为了保证这种合作的顺利开展,需要制定一系列国际标准,包括技术标准、工作标准和社会伦理标准。语言资源关涉到人类的知识库存、精神家园和生产资料的集聚管理,必须加强学术研究,加大加快社会行动。
作者简介:
李宇明,男,北京语言大学教授、博士生导师,主要研究方向为语法学、儿童语言学、语言学理论、语言规划等。
官方微信 官方微店
联系方式:
电话:010-65219060 65219062
网址:http://yyzlyj.cp.com.cn
邮箱:yyzlyj@cp.com.cn
地址:北京市东城区王府井大街36号
邮编:100710
服务国家社会需求 研究现实语言问题
促进学术成果转化 构建和谐语言生活